center


Hajónapló
SzakcikkekPublicisztikákArchívum


A hajónaplóban az általunk fontosnak tartott cikkekből, elemzésekből válogatunk.

Metakeresők
Információbányák, www.prherald.hu, 2006. augusztus 1.

Még a nagyobb kereső programok, mint a Google is csak a lapok 45%-át indexelik és teszik kereshetővé. A „Rejtett Web” (Hidden Web) adatbázisai (pl. PubMed, Web of Science) becslések szerint ezerszer több adatot tárolnak, mint a „Nyitott Web” oldalai.
A legfőbb problémák: az információ lefedettség, a minőség, a túl sok felesleges adat, relevancia, aktualitás és teljesség, a nyelvi félreérthetőségek és az eltérő felhasználói felület. A metakeresők azonban képesek egyszerre több forrás keresésére is, hogy növeljék a keresési területet, a keresés pontosságát, a relevanciát, az eredményességét és a hatékonyságot.

Az információk az Interneten nagyon heterogének: A tartalom szétszórtan helyezkedik el különböző szervereken, címeken, formátumokban és eltérő nyelveken, másmás hallgatóságot megcélozva. Holott a legtöbb információ valóban elérhető mégis gondjaink vannak a keresésnél, ugyanis sokan sokféle formában írták le azt, amit felhasználni szeretnénk. Ezen a területen egyértelműen fejlődés tapasztalható, hiszen a fejlettebb keresők már nem csak a html fájlokat indexeleik, hanem például a pdf vagy doc fájlokat is, amelyek igen sok korábban közvetlenül hozzá nem férhető információt tettek kereshetővé. De azért érzékelhető, hogy a rengeteg különböző fájltípus nehezíti ezt a helyzetet.

A heterogenitás nem csak a már megtalált információknál jelentkezik, hanem a keresés során is. Különböző keresők és adatbázisok különböző felületekel rendelkeznek, különböző címeken érhetőek el. Nem véletlen, ha a legtöbb ember számára a keresés egyetlen kereső használatát jelenti, hiszen a legtöbb esetben valóban lehet valamilyen információt kapni bármilyen témáról.

A teljesség iránti vágy
Még a legnagyobb kereső programok, mint a Google is csak a lapok 45%-át indexelik és teszik kereshetővé. Miért van ez? A Google adatbázisa jelenleg több mint nyolcmilliárd oldal indexét tartalmazza. Az úgynevezett Hidden (rejtett), vagy Deep (mély) jelzőkkel technikailag nem elérhető információkról beszélünk. Ezek hagyományos statikus html oldalak korábban nem kerültek indexelésre.

A google által indexelt lapok száma 2005. június 9-én: 8,058,044,651 lap. Itt egyszerre két problémával kell szembenézni. Látható egy hihetetlen gyors növekedés, ami nagyságrendileg is komoly növekedést takar. Úgyis megfogalmazhatnánk, hogy a tavalyi évben napi 230.000-el nőt a szerverek száma. Egyrészt tehát, van egy nagyon gyors növekedés, ami nehézséget jelent. A probléma másik oldalát úgy világítanánk meg, hogy pl. 2005. június 8-án 3 53 millió domain név létezett, majd 24 óra alatt több mint 700 ezer új domain nevet jegyeztek be, és ugyanakkor 680 ezret töröltek. Vagyis napi szinten a domain nevek több mint 1 százaléka megváltozott. Ahhoz hasonlítható ez, mintha az Országos Széchenyi Könyvtár 7,5 milliós gyűjteményébe naponta 75 ezer új könyvet kellene felvenni, és mondjuk 70 ezret pedig leselejtezni. Azt hiszem jól látjuk mindannyian, hogy hamarosan komoly nyilvántartási problémáik lennének.

Rejtett web
A Hidden Web adatbázisai (pl. PubMed, Web of Science) becslések szerint több százszor több adatot tárolnak, mint a „Nyitott Web” oldalai. Rengeteg olyan adatbázis, adatforrás található meg interneten keresztül elérhető formában, amely a tartalmát csak meghatározott kérésekre tárja fel. Vagyis nem indexelhető a hagyományos módszerekkel. Egyszerűen nincsenek a kereső crawler kutató robotjai által elérhető fájlok, amiket kereshetővé lehetne tenni a hagyományos módon.
Néhány éve a hidden web körébe sorolták a különböző nem html fájlformátumban levő tartalmakat is, ma már ez is megoldott.

Nagyon sok olyan forrás létezik, ahol az információk háttér adatbázisokban találhatók, és csak kérésre kerülnek elő azokból egy dinamikusan legenerált html oldalon való megjelenítésre. Ilyenek például a publikációs adatbázisok, amelyek ma már a legtöbbször teljes szövegükben tartalmazzák az adott publikációt, telefonkönyvek, enciklopédiák, szótárak, könyvtári katalógusok, törvények szövegei, szabványok, szabadalmak, hirdetések, hírek – amelyek sokszor a legfontosabb információkat osztják meg egy témával kapcsolatban.

Természetesen ezeket a forrásokat is kereshetővé lehet tenni, mint ahogy például a NIH PubMed adatbázisa kereshető a Google-lel, azon az áron, hogy az NIH meghatározott időközönként átadja az adatbázisainak tartalmát indexelésre. Ennek azonban nyilvánvaló korlátai vannak. Egyrészt az együttműködés oldaláról, hiszen a keresőknek sorra megkellene állapodniuk ezekkel a forrásokkal, másrészt a legfrissebb – ilyen módon legrelevánsabb cikkek – csak az eredeti adatbázisban érhetőek el, hiszen nem lehet naponta átadni ezeket az információkat.

Relevancia
Az „űrkutatás” keresőszóra például a google az ötödik a yahoo a negyedik helyen egy viccgyűjteményt hoz, ahol az űrkutatáshoz kapcsolódó vicceket találunk. Ez a példa jól illusztrálja, hogy egy-egy forrás relevanciája a kérdésben nem feltétlenül könnyen meghatározható.

Aktualitás
A keresők indexelő programjai, csak meghatározott időközönként képesek végiglátogatni az internetet, holott nagyon sok tartalom nagyon gyakran változik. Természetesen ezek az algoritmusok is folyamatosan fejlődnek de nem várható minden tekintetben kielégítő megoldások

Speciális problémák
A metakeresők képesek egyszerre több „Nyitott Web” és „Rejtett Web” forrás keresésére, annak érdekében, hogy növeljék a keresési területet, a találati pontosságot, a relevanciát, az eredményességét és hatékonyságot. A rejtett webhez tartozó forrásokat összekapcsolhatod az indexelhető webbel, a keresések során ezzel a keresési területet is tudod növelni. Adott tématerületeken minőségi és releváns információt tartalmazó oldalakat emelhetsz ki. Tetszőleges számú egymástól eltérő adatokat tartalmazó adatforrás egyidejű keresésére (keresők, híroldalak, könyvtári katalógusok, publikációk oldalak stb.) van lehetőséged. A keresett adatbázisok köre is szabályozható. Igény szerint kihagyhatod, vagy hozzáadhatod az általad kívánt forrást a kereséshez.

Adott esetben ugyanis a megoldáshoz inkább a keresési terület célirányos szűkítése vezethet bennünket, kiválasztva a témában releváns információt tartalmazó forrásokat a kereséshez, kevesebb de sokkal jobb minőségű információt találhatunk.

Áttekinthetőség
A túl sok információ, illetve hatékonyság (information overload) problémájára a szoftverben a dinamikusan generált tartalomjegyzék jelent megoldást. Nagyon sok esetben a keresés nem a túl kevés, hanem a túl sok információ miatt mondható sikertelennek. A keresők nagy része csak az első néhány találatot nézi meg, és ha ott nem talál valami érdekeset, akkor egy másik kérdéssel, vagy keresővel próbálkozik.

Indexálás
Hogyan teheted elérhetővé a sokadik oldalon megbúvó, esetleg mégis értékes találatokat? Könnyen lehetséges, hogy egy téma meg sem jelenik az első oldalon, illetve a témához kapcsolódó találatok mindegyike szinte biztosan nem látható egyszerre. Erre jelent megoldást a tartalomjegyzék, vagy index. Azonosítsd, és rendezd nyelvi csoportokba a találatokat, amelyek így jobban és gyorsabban áttekinthetők.

A tartalomjegyzék fejlett nyelvi elemző technológiák felhasználásával készül, amiben nyelvi elemzéssel kapcsolat kutatók évtizedes tapasztalatit használják a lexikai elemzéshez. A szinonima-adatbázis speciális területeken (MESH), a magyar nyelvi elemzésben pedig a Morphologic a segítség. A keresés eredményességét egy jelenleg fejlesztés alatt álló módon is növelni kívánjuk, amikor a forrásokhoz mintegy kívülről szeretnénk hozzáadni nyelvi tudást az ún. query expansion segítségével.

Például ha a google-ben az „információkeresés” szóra keresünk 4930 találatot kapunk, ha az „információkeresési” szóra keresünk mindössze kapunk. A két keresést azonban kombinálhatjuk az OR szóval. Ezt szeretnénk automatikussá tenni a magyar nyelv esetében. A másik problémát a logikai operátorok okozták. A Google-ben nem szükséges a használatuk, mégis többen kapcsolták össze „AND”-del a beírt szavakat. Minden ilyen esetben megjelent egy tájékoztató szöveg, miszerint nem szükséges ezt használni, mert a Google alapértelmezetten így kapcsolja össze a szavakat. A keresési funkciók hátterét a jól kidolgozott, széleskörűen paraméterezhető adminisztrációs rendszer adja, mely lehetőséget ad arra, hogy eltérő igényekhez is testre szabható legyen a rendszer, az egyszerűtől a legösszetettebb kutatói funkciókig.

Jóföldi Endre

Metakeresők, Információbányák, www.prherald.hu, 2006. augusztus 1.